In-Context LoRA

https://gyazo.com/509b1e7f6ba8c02707a293e10dc44dd2

https://github.com/ali-vilab/In-Context-LoRAali-vilab/In-Context-LoRA

https://arxiv.org/abs/2410.23775In-Context LoRA for Diffusion Transformers

Group Diffusion Transformersや【Flux.1-Dev】プロンプトのみで一貫性のあるスプライトシートを生成するでわかるように、DiTは元々、複数枚に渡って文脈に一貫性のある画像を作ることができる。と仮定する

一貫性のあるマルチパネル画像と、複数のパネルをまとめて説明するキャプションを付けたデータセットでLoRAを作ることで、この特性を安定して引き出す

e.g.

portrait-photography.safetensors

https://gyazo.com/be792a320f080e6c880900d6e9c52068

font-design.safetensors

https://gyazo.com/935329eda3ee4dae0465cd464aaa8e63

https://huggingface.co/ali-vilab/In-Context-LoRAali-vilab/In-Context-LoRA

https://github.com/ali-vilab/In-Context-LoRA#model-zoo推奨解像度&プロンプト例

https://gyazo.com/eafe99f6567dae4db4f634faab6e7d7d

Film-Storyboard.json

https://gyazo.com/4e737fdc82b57dd96a85639fa16ab49c

code:prompt

MOVIE-SHOTS Set in the early 2010s, this inspiring tale of growth follows <Anna>, a 30-something woman whose life takes an unexpected turn in the world of fashion. SCENE-1 captures <Anna> from outside the restaurant window as she works, her appearance unkempt with disheveled hair, clearly unconcerned with her looks, SCENE-2 leading to a life-changing moment when an elderly man in a sleek suit, dining as a customer, approaches her with an invitation to join a fashion brand, SCENE-3 portraying <Anna> as the same man mentors her on dressing with sophistication, gradually transforming her style and confidence, SCENE-4 concluding with <Anna> in Paris, commanding the backstage of a fashion show, confidently giving direction to models and junior staff, fully embodying her new role.

サンプルをテンプレートとして、こんなシナリオに書き直してくれってChatGPTに投げると作ってくれるnomadoor.icon

Visual Identity Transferを使えば、ロゴとして漢字を書いたText画像渡して表示できるかなと試したけど惜しいけど安定しない感じになった…morisoba65536.icon

こんな感じでいいのかな…？nomadoor.icon

https://gyazo.com/b9ed99562638aa4f13a52f795b71e622

visual-identity-design.json

i2iだと安定するんだ…morisoba65536.icon

t2iでの失敗例

https://scrapbox.io/files/6781ef27e3ff159376cef55d.webp

InContextWorkflow.jsonmorisoba65536.icon

LoRAはあくまでFluxの力を安定させてるだけなので、プロンプトが結構大事な気がするnomadoor.icon

https://gyazo.com/fd651becdb5768813ca7f6301e4dbf76https://gyazo.com/0b612db7d96d0bb13e650d1d34b1dc86

上と同じくinpaintingだけど、プロンプトをちゃんと修正した右側は綺麗に転送できてる

code:左の画像プロンプトの和訳

一対の画像は、シンプルなロゴとその実際の使用例を強調しています。IMAGE1 白い背景に黒い文字。IMAGE2 このロゴは、女性の頬に黒と白のタトゥーとして適用されています。

code:右の画像プロンプトの和訳

一対の画像は、シンプルなロゴとその実際の使用例を強調しています。IMAGE1 黒い背景に青い縁取りがされた赤い文字。IMAGE2 このロゴは、女性の黒いTシャツの胸部分にプリントとして適用されています。

ただ、In-Context LoRA#6781ede123f4be00008ed2e1で文字が崩れすぎてるのはちょっと気になる

プロンプト力が足りなかったか…morisoba65536.icon

崩れてた理由がわかった、「画像をマスクに変換」をredにしてたので赤い文字が背景として読み込まれてしまっていた…

だめだグリーンバック化してもやっぱり崩れる…一度出力した画像にインペイントの方がいいのかもしれん…morisoba65536.icon

https://scrapbox.io/files/6782b8f4d561dd59690b098f.webp

t2i.json

このworkflow見たことあったけれどようやく理解できたnomadoor.icon

inpaintingと同じだけど、右半分全部マスクで埋めてるだけか

https://gyazo.com/c1411a1b0a867b6115b09d4de2096187

visual-identity-design_text2image.json

右半分を画像の代わりにempty imageと同じサイズのマスクに変更

モデルをノーマルのflux.1-devに変更して、プロンプトも全身描くように変更

確かにちょっと崩れちゃうな

冷静に考えると「元画像を横に2倍に拡大」→「拡大した先をマスクしてインペイント」なのでFillなどのインペイントモデルでないとうまく動作しない可能性が思いついた…なので任意のモデル使いたい時は公式Wikiのインペイントモデルの能力をマージするとかがいるのかもmorisoba65536.icon

と仮説を立てましたがFillモデルだと普通にノイズのままだったのでi2iに比べるとt2iで文字レベルの細かいものは難しい、と考えるほうがいいかも(サメの絵文字🦈一文字とかならなんとかなる)

もしくはうまく出なければそのときにitiに切り替えるか…(最初のt2iはアタリと割り切る)